#Claude Code
Codex不打算讓Claude Code好過
2月6日,OpenAI總裁Greg Brockman在X上公開發了一條面向全公司工程團隊的帖子,設了一個deadline:到3月31日,任何技術任務,工程師的第一工具應該是agent,而不是編輯器或終端。這是OpenAI對自己下的動員令。如果只看這句話,你可能會覺得又是一條矽谷式的願景聲明。但接下來六周發生的事情表明,Brockman不是在喊口號。OpenAI的Coding Agent平台Codex,正在經歷一輪罕見的產品衝刺,密度之高,節奏之快,甚至讓一些長期關注AI編碼工具的開發者開始重新審視自己的工具鏈。與此同時,Codex在程式設計師群體中的熱度和口碑也在肉眼可見地上升。一切動作都指向“狙擊”Anthropic 如日中天的Claude Code。六周的瘋狂迭代拉一下時間線就能感受到這個節奏。2月2日,Codex桌面App發佈(macOS),OpenAI同時宣佈向ChatGPT免費和Go使用者開放Codex,所有付費使用者的速率限制翻倍。2月5日,GPT-5.3-Codex發佈,OpenAI稱它為"第一個幫助創造了自身的模型"。同一天,Anthropic發佈Claude Opus 4.6。2月12日,Codex-Spark發佈,與AI推理硬體公司Cerebras合作,推理速度超過每秒1000 tokens。OpenAI的說法是,“當模型能力越來越強,互動速度就成了明確的瓶頸。”2月14日,OpenClaw創始人Peter Steinberger宣佈加入OpenAI。據Pragmatic Engineer報導,Steinberger用Codex編寫了OpenClaw的全部程式碼,偏好長時間運行的agentic loop。Sam Altman在X上稱他為“天才”,說他將“推動下一代personal agents”。3月4日,Codex桌面App登陸Windows。3月5日,GPT-5.4發佈,是OpenAI第一個同時具備reasoning、coding和原生computer use能力的通用模型,在Codex和API中支援100萬token上下文。3月6日,Codex Security進入research preview。這是OpenAI推出的應用安全代理,前身為內測階段的Aardvark,能夠分析程式碼倉庫、建構項目級威脅模型、在沙盒中驗證漏洞並提出修復建議。過去30天的beta測試中,它掃描了超過120萬次commits,發現792個critical等級漏洞和超過10000個高危問題,覆蓋OpenSSH、GnuTLS、Chromium等重量級開放原始碼專案。誤報率降低超過50%,噪音降低84%。使用資料也在同步攀升。Sam Altman在X上確認,Codex的周活使用者自年初以來增長超過三倍;Codex團隊負責人Thibault Sottiaux(Tibo)告訴Pragmatic Engineer的Gergely Orosz,1月以來它的使用量增長了5倍,周活開發者超過100萬。Tibo還在播客中提到,Super Bowl周日播出的Codex廣告讓系統幾乎立即承受了巨大負載。六周,七次重大產品動作,這成了OpenAI在產品上最激進的衝刺之一。要理解這個節奏,一方面要看供給側的變化。GPT-5系列模型的agent能力在過去幾個月出現了質的飛躍,從上下文窗口、工具呼叫到長時間自主執行,模型本身的能力到了一個可以支撐Coding Agent這個產品形態的臨界點。另一方面,需求側的訊號同樣強烈。據SemiAnalysis報導,Anthropic的Claude Code已經做出25億美元的年化收入,佔其企業收入的一半以上。Claude Code用真金白銀證明了Coding Agent可以成為AI公司的核心收入引擎。對於估值據報已達數千億美元的OpenAI來說,放棄這個賽道不是一個現實的選項。根據SemiAnalysis的預測AnthropicARR增速一度超過OpenAI時間點上的貼身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天發佈。Codex Security和Claude Code Security幾乎同期推出。這種節奏本身就是訊號,兩家公司正在把Coding Agent平台視為正面戰場。開發者開始從Claude Code的單一模式變成混合模式在很長一段時間,Anthropic旗下的Claude Code看起來似乎已經沒有了對手,使用者對它的依賴變得越來越重。而OpenAI顯然不想讓Anthropic 這麼舒服。在Codex的一通激進衝刺後,開發者社區的反應也開始發生一些變化。過去一個月,Reddit和Hacker News上關於Codex和Claude Code的討論,出現頻率最高的詞不是更好或替代,而是stacking。也就是說,越來越多的開發者不是在兩者之間選擇,而是同時使用。Calvin French-Owen是一個典型案例。他是Segment聯合創始人,曾在OpenAI參與Codex web產品的發佈,同時也是Claude Code的深度使用者。他在今年2月寫的一篇部落格裡說,自己選擇工具的核心標準是“我有多少時間,以及我想讓它多自主地跑”。他的日常工作流是用Claude Code做規劃、編排終端和管理git操作,然後切到Codex做實際編碼。他說Opus在跨上下文窗口的工作中效率更高,會同時啟動多個子代理平行探索程式碼庫;而Codex在長時間自主編碼任務上更穩定。Reddit上也出現了更具體的分工模式。有開發者詳細描述了一個五段式workflow,先讓Claude Code出計畫,再讓Codex review計畫,然後由Claude實施,最後交給Codex做code review和QA迭代。還有人直接把Claude Code和Codex串成了一個CLI bridge,因為手動在兩者之間複製貼上太累了。一篇社區分析總結了500多條Reddit評論後的結論,Claude Code在一組小樣本盲測中勝率達到67%,質量更高;但Codex 20美元的套餐能編碼一整天不斷,而Claude Code同價位十幾個prompt就用完了。“Claude Code質量更高但用不完,Codex稍弱但全天能用”,這是2026年3月開發者社區最真實的共識。在Cursor官方的benchmark中,GPT系列整體領先其他模型。開發者社區還流傳著一個比喻來描述兩者的氣質差異,Claude像美國人,適合做充滿創造力的探索和頭腦風暴,Codex像德國人,代表極致的效率和專注執行。“它就像一條咬住骨頭不放的狗,非常固執,會一直嘗試直到解決問題。”當然也有反面聲音。Hacker News上有開發者說Codex對自己來說“每一項都比Claude Code差”,尤其是code review會製造看似合理但實際不存在的問題,他最後只把Codex用來覆核Claude的產出。但大方向已經很明確了,社區討論正在從那個更好就用那個,變成兩個都用,各佔一個工位。比的不再是benchmark,是誰是更實用的產品只看模型benchmark,你不太容易理解Codex為什麼起勢。在SWE-Bench這類編碼評測上,Claude Opus 4.6仍然領先。真正讓Codex拉開差異的地方在別處,OpenAI正在圍繞它建構一整套工程系統。Orosz今年2月發表了一篇對Codex團隊的深度報導。其中最引人注目的事實是,Codex超過90%的程式碼是由Codex自己編寫的。Anthropic方面也有類似的說法,Claude Code的建立者Boris Cherny告訴Orosz,Claude Code的資料大致相當。當然,這裡的90%需要打個折扣理解,在一個成熟項目中,樣板程式碼、測試用例、常規重構佔了大量行數,核心架構決策仍然由人來做。但兩家AI實驗室都在用自己的coding 工具來編寫自己的coding 工具,這種自舉本身就說明了這些工具已經深度嵌入了日常工程流程。Codex 的基本工作原理Codex團隊在工程組織層面走得更遠。Orosz的報導描述了一種新的工作方式,Codex團隊的典型工程師同時運行4到8個平行agent,分別處理feature開發、code review、安全審計、程式碼庫理解、bug修復等任務。工程師的角色正在從寫程式碼的人變成管理agent的人。技術選型上,Codex CLI選擇了Rust(Claude Code使用的是TypeScript)。團隊負責人Tibo給出的理由不僅是性能和正確性,還有工程文化,選擇Rust是為了給團隊設定一個高工程標準,同時減少對npm依賴生態的依賴。他們甚至招募了Rust終端UI庫Ratatui的維護者全職加入團隊。更值得關注的是分層程式碼審查機制。Codex團隊訓練了一個定製的code review模型,據Tibo說約9/10的評論能指出有效問題。審查分兩層,非關鍵程式碼在AI review後可以直接merge,核心agent程式碼和開源元件仍然要求強制人工審查。這套機制的意義在於,審查本身開始分層了。還有兩個細節能說明Codex正在從工具走向系統。Codex可以運行自己的完整測試套件來測試自身;團隊還設定了夜間巡檢,讓Codex自動掃描程式碼庫並生成待審修復建議,工程師每天早上進公司時就有一批修復等著review。一家名為Wonderful的AI開發公司的首席架構師在今年3月寫了一篇文章,描述了他們四個月前禁止手動coding後的經驗。他對兩個工具的定位是,Codex是坐在房間後面戴耳機的工程師,默默讀完你整個程式碼庫15分鐘才寫第一行程式碼,Claude則更有產品感,更擅長判斷什麼感覺對。他們把Codex用於低延遲系統工作、即時語音管線、性能敏感程式碼,Claude則用於UI和前端。從coding工具到Agent平台拉遠來看,Codex六周衝刺的方向指向一個更大的野心。Peter Steinberger的加入是一個人事訊號。他日常同時平行5到10個agent,加入OpenAI後的方向是下一代personal agents,不是coding工具。OpenAI正在用Codex作為agent戰略的入口。Codex Security則是另一個方向的延伸。當Codex從幫你寫程式碼走向幫你審計安全,它的定位就已經變了。GPT-5.4進一步加速了這個轉變。作為OpenAI第一個具備原生computer use能力的通用模型,它在Codex中不僅能寫程式碼,還能操作電腦、跨應用執行工作流。配合正在成型的外掛/skills生態系統和企業級權限管理,Codex的輪廓越來越像一個AI原生的開發平台。Codex團隊在Every的播客中透露了他們眼中的下一個瓶頸,就是程式碼審查。模型生成程式碼的速度已經遠超人類review的速度,驗證產出的正確性成了最緊迫的問題。他們已經在嘗試讓模型通過重現使用者操作路徑來“證明”修復有效,而不是讓人類逐行讀程式碼。這些野心和Claude Code已經越來越清楚的發展方向有很多重合,在從Claude Code那裡迅速搶走了一些使用者和使用場景之後,Codex的勢頭正在起來。回到Greg Brockman 2月6日的那條帖子。他設的deadline是3月31日,目前距離deadline還有兩周多,而從過去六周的節奏來看,Codex的衝刺還遠沒有結束。OpenAI把曾經在模型上呈現出的狠勁兒和卷王的氣質,都放到了Codex上,接下來它和Claude code之間短兵相接的故事,會更精彩了。 (硅星人Pro)
Agentic AI時代,“老大”OpenAI成了“老登”?
ChatGPT的發佈讓OpenAI一戰封神,所有人都覺得這家AI公司會一直贏下去。然而在AI程式設計這條賽道上,佔據先機的卻並非OpenAI。2025年2月份,競爭對手Anthropic低調發佈了Claude Code。這款能夠直接操作電腦、自主完成程式設計任務的AI智能體,在短短幾個月內為Anthropic帶來了超過25億美元的年化收入。與之相比,OpenAI的同類產品Codex,同期年化收入約為10億美元。雙方的差距不止一倍。更令OpenAI尷尬的是,Anthropic的核心創始團隊,正是幾年前從OpenAI離開的那批人。OpenAI位於舊金山Mission Bay的新總部大樓是一棟現代化的玻璃幕牆建築。接待處擺放著介紹公司發展歷程的宣傳資料,樓梯間的牆壁上掛滿了一系列里程碑事件的紀念海報:GPT系列、DALL·E、ChatGPT——每一幅都記錄著這家公司過去幾年的高光時刻。但其中沒有AI程式設計。01. 從Codex到Copilot,OpenAI錯失的先發優勢OpenAI其實很早就開始了AI程式設計方向的探索。2021年,奧特曼和OpenAI聯合創始人格雷格·布羅克曼(Greg Brockman)還在舊金山Mission區的老辦公室,向《連線》雜誌記者展示了一個叫Codex的項目。它是GPT-3的一個分支版本,在GitHub的數十億行開放原始碼上訓練而成。使用者輸入一句自然語言描述,它就能生成一段相應的程式碼。“它可以代表你在電腦世界裡執行操作,”布羅克曼當時說,“你擁有一個可以執行命令的系統。”但這個早期的技術積累,最終沒有轉化為產品層面的持續投入。Codex被微軟看中了。這家軟體公司當時正在開發一個叫GitHub Copilot的產品,這是一款能嵌入程式設計師編輯器、提供程式碼補全功能的工具。一位早期加入OpenAI的員工回憶,當時的Codex“除了自動補全之外做不了太多事情”,但微軟已經將其視為未來產品的重要方向。2022年6月,GitHub Copilot正式發佈,幾個月內就吸引了數十萬使用者。正常情況下,OpenAI應該會加大對這一方向的投入。但接下來發生的事情,讓後來負責Codex產品的團隊感到遺憾。最初的Codex團隊被解散了。一部分成員轉去做DALL·E 2圖像生成項目,一部分去參與GPT-4的訓練。當時公司的首要目標是實現AGI,AI程式設計沒有被視為需要獨立投入的領域。一位前團隊成員說,之後的幾年裡,OpenAI沒有專門的團隊在開發AI程式設計產品。“當時的感覺是,這個領域已經被GitHub Copilot覆蓋了,”畢竟微軟會繼續使用OpenAI的模型來迭代這個產品,不需要OpenAI自己操心。幾個月後,ChatGPT上線,兩個月內使用者數突破1億。OpenAI完全被這次成功轉移了注意力。接下來的2023年和2024年,OpenAI把主要資源投入到多模態模型的研發上,致力於讓AI理解圖像、視訊、音訊,像人一樣操作游標和鍵盤。當時Midjourney等產品正在興起,行業普遍認為大語言模型需要具備處理多模態資訊的能力,才能邁向更高層次的智能。這個方向的選擇本身沒有問題。只是在這段時間裡,AI程式設計這條賽道正在悄然生長,而OpenAI的注意力並不在這裡。02. 競爭對手Anthropic突圍Coding賽道Anthropic選擇了另一條發展路徑。這家公司也做多模態模型和聊天機器人,但有一個方向始終沒有放鬆:程式設計能力。布羅克曼後來在一個播客節目裡談到,Anthropic“從早期就非常專注在程式設計上”。他們不僅用演算法競賽題目訓練模型,還往訓練資料裡加入了真實項目中那些結構混亂的程式碼,就像普通開發者日常面對的那種。“這是我們沒有及時意識到重要性的地方,”他說。2024年6月,Anthropic發佈Claude Sonnet 3.5。很多開發者試用後發現,這個模型的程式設計能力確實突出。一家叫Cursor的初創公司最先受益於此。幾個二十多歲的年輕人做了一款產品:在程式碼編輯器裡用自然語言提需求,AI直接幫忙修改程式碼。他們接入Sonnet 3.5後,使用者量開始快速增長。據熟悉Cursor的人士透露,幾個月內,Anthropic就開始內部測試自己的獨立版本了,也就是後來的Claude Code。Cursor火起來之後,OpenAI曾試圖收購這家公司,但遭到拒絕。對方認為程式設計賽道潛力巨大,希望保持獨立。收購未能達成,OpenAI內部也開始有團隊嘗試AI程式設計方向。2024年底,幾個小型團隊陸續啟動。一個是安德烈·米申科(Andrey Mishchenko)和蒂博·索蒂奧(Thibault Sottiaux)帶領的團隊,這兩人分別是Codex的研究負責人和前GoogleDeepMind研究員。他們最初的動機比較務實:用AI程式設計來加速AI研究,讓AI自動管理訓練任務、監控GPU叢集,研究員就能騰出時間做更有創造性的工作。另一個是亞歷山大·恩比里科斯(Alexander Embiricos)帶領的團隊,他之前負責多模態智能體的研發。他做了一個叫Jam的演示項目,在公司內部引起了不少關注。Jam和2021年的Codex有本質區別。Codex是輸出程式碼讓人來執行,Jam則可以直接進入命令列,自己運行程式碼。恩比里科斯看著電腦螢幕上那個跟蹤Jam操作的自建頁面一遍遍自動更新,感到有些不可思議。“我以前一直以為多模態互動可能是實現AGI的路徑,也許我們以後就是整天和AI共享螢幕,”他說,“但後來逐漸意識到,讓模型以程式設計方式直接訪問電腦,可能是更有效的方向。”這幾個團隊磨合了幾個月後合併在一起。等OpenAI在2025年初完成o3(比o1更針對程式設計任務最佳化的模型)的訓練,他們終於有了建構產品的技術基礎。但這時,Claude Code已經準備公開發佈了。03. 收購受阻與內部衝刺,OpenAI的雙線應對2025年2月,Claude Code以“有限研究預覽”的形式首次亮相。5月,全面開放使用。這個產品和之前流行的“氛圍編碼”模式不同。氛圍編碼是人主導、AI輔助的程式設計模式,由人做決策,AI執行具體操作。而Claude Code可以直接在命令列工作,訪問使用者的所有檔案和應用程式,開發者可以把部分工作真正交給AI來完成。OpenAI也開始加快節奏。索蒂奧在3月組建了一個“衝刺團隊”,把內部幾個小組整合在一起,計畫在幾周內推出競品。與此同時,奧特曼開始尋找收購目標,他們看上了一家叫Windsurf的AI程式設計初創公司,報價30億美元。如果收購完成,產品、團隊、企業客戶都能快速補齊。但這筆交易被微軟擱置了數月。據《華爾街日報》報導,微軟希望獲得Windsurf的智慧財產權。這家雲巨頭從2021年起就用OpenAI的模型支撐著GitHub Copilot,每次財報電話會都會提及這個產品。但Cursor、Windsurf、Claude Code陸續出現後,GitHub Copilot的產品形態顯得有些過氣。此時OpenAI再推一個新的編碼產品,微軟的態度自然變得複雜。Windsurf的交易正趕上OpenAI和微軟重新談判合作協議。OpenAI希望從微軟那裡爭取更多自主權,不希望產品和算力資源被過度控制。這筆收購成了雙方博弈過程中的犧牲品。到7月,交易正式告吹。後來Google招攬了Windsurf的創始人,剩餘團隊則被另一家編碼初創公司Cognition收入麾下。“我本來挺希望做成這筆交易的,”奧特曼說,“但不是每一筆交易都能控制。”不過他提到,Codex團隊的表現讓他有些意外。談判那幾個月,索蒂奧和恩比里科斯一直在迭代產品,沒有停下來。到8月,OpenAI開始加速推進自己的產品。04. 從5%到40%:Codex猛追市場份額布羅克曼有一個自己設計的測試方法,叫“反向圖靈測試”。他多年前親自編寫了這套程序,規則是這樣的:兩台電腦前各坐一個人,每人螢幕上有兩個聊天窗口,一個連接著對面的人,一個連接著AI。目標是判斷那個窗口是AI,同時還得讓對方以為你才是AI。去年大部分時間,OpenAI最好的模型要完成這個遊戲的程式碼編寫,需要好幾個小時,中間還得有人一步步引導。到12月,Codex用GPT-5.2做引擎,一個結構清晰的提示詞輸入後,就能直接生成一個可運行的遊戲。感受到變化的不僅僅是布羅克曼。開發者社區裡開始頻繁討論AI程式設計智能體的能力提升,話題從矽谷擴散到更廣的範圍。一些沒有程式設計背景的人,也開始嘗試用這些工具做些簡單的軟體項目。Anthropic和OpenAI都在爭搶使用者。有開發者表示,自己每月支付200美元的Codex或Claude Code訂閱費,實際能用到價值1000多美元的服務。兩家公司都在用慷慨的用量限制把使用者往工作流裡引導,等人用習慣了,再按實際用量收費。從資料上看,OpenAI確實在縮小差距。2025年9月,Codex的使用量大約是Claude Code的5%。到2026年1月,這個比例上升到接近40%。Notion的聯合創始人西蒙·拉斯特(Simon Last)說,他和團隊在GPT-5.2發佈後從Claude Code切換到了Codex,主要原因是後者更穩定。“我發現Claude Code有時候會給出不精準的資訊,”他說,“它說自己正在處理任務,實際上並沒有進展。”在OpenAI負責Codex行為研究的凱蒂·施(Katy Shi)說,有些使用者覺得Codex的回應風格偏“干”,但越來越多人開始接受這種不刻意迎合的特點。“工程領域的工作,本來就需要能夠接受批評性反饋,不能因為表達方式直接就覺得被冒犯。”企業客戶也在逐步進入。OpenAI應用部門的CEO菲吉·西莫(Fidji Simo)稱:“ChatGPT已經成為AI領域的代表性產品,這在B2B市場是一個明顯優勢,多數企業傾向於使用員工已經熟悉的技術。”OpenAI銷售Codex的策略,主要是將其打包進ChatGPT的企業套件中一併提供。思科的總裁傑圖·帕特爾(Jeetu Patel)告訴員工,不用太在意使用Codex產生的費用,關鍵是要熟悉這個工具。有員工問他用了之後會不會失業,他的回答是:“不會,但不用一定會失業。不熟悉這些工具的人,慢慢會失去競爭力。”有開發者認為,OpenAI在B端市場的管道優勢正在發揮作用。不少公司已經採購了ChatGPT的企業版,在此基礎上增加一個Codex功能,決策成本並不高。也有分析指出,Codex最近的能力提升與GPT-5.2的推理能力最佳化直接相關。o系列模型採用的訓練方法,即讓模型在結果可驗證的程式設計任務中不斷試錯、獲得反饋,這對程式碼生成的質量有明顯幫助。程式設計本身就是一個反饋訊號明確的領域,程式碼要麼能運行要麼不能,這種特性對模型迭代很有利。05. 奧特曼的難題:既要速度,又怕失控AI程式設計智能體的影響已經不限於開發者社區。《華爾街日報》上個月將科技股1兆美元的拋售部分歸因於Claude Code,因為投資者擔心軟體本身的價值可能被壓縮。之後Anthropic宣佈,Claude Code可以對IBM那些運行COBOL語言的老系統進行現代化改造,IBM的股票遭遇了25年來最大單日跌幅。OpenAI也在加大投入。今年的超級碗廣告,他們投放的是Codex,而不是ChatGPT。在OpenAI總部,Codex的使用已經相當普遍。多位工程師提到,他們現在很少手寫程式碼,每天的工作主要是和Codex互動。一位參與了內部駭客馬拉松的工程師描述說,現場大約100人,用四小時時間通過Codex搭建一個可用的演示項目。不少項目既是用Codex開發的,目標也是為了讓工程師更好使用Codex。有的團隊做了個工具,把Slack消息自動彙總成周報,有的團隊用AI生成了一個內部服務的百科式指南。以前這些事情可能需要幾天才能完成,現在一個下午就能跑通流程。凱文·維爾(Kevin Weil)是前Instagram高管,目前負責OpenAI for Science部門,為研究人員開發AI產品。他說Codex現在會在夜間幫他處理一些項目,早上到公司檢查進度就行。這種做法已經成了他和幾百名同事的日常工作方式。OpenAI 2026年的目標之一是開發一個能夠自主進行AI研究的AI實習生。西莫表示,Codex最終會整合進ChatGPT和所有產品線,不僅是用來程式設計,而是協助處理各種任務。奧特曼說他想發佈一個通用版本的Codex,但對安全性還有些顧慮。1月底,他一個非技術背景的朋友請他幫忙安裝OpenClaw,但他沒有答應,認為“現在還不是時候”,那個智能體可能會誤刪重要檔案。但這件事過去幾周後,OpenAI就把OpenClaw的創作者招進了公司。不少開發者認為,Codex和Claude Code之間的差距確實在縮小,但也有機構對OpenAI的進度表示擔憂。一個叫Midas Project的非營利組織發佈報告稱,OpenAI在GPT-5.3-Codex上沒有完整披露網路安全風險,安全承諾的落實情況不夠透明。OpenAI的對齊負責人阿米莉亞·格拉澤(Amelia Glaese)否認為了推進Codex而犧牲安全,表示Midas對公司的承諾存在誤解。布羅克曼對AGI的進展保持樂觀,認為“項目正在按計畫推進”。但在不少矽谷工程師的印象裡,他一直是那種產品發佈前夜還在檢查程式碼庫細節的負責人。現在的狀況不太一樣了。布羅克曼面對的是幾十萬個AI智能體,在執行具體的任務和項目。他說這種新的工作方式“讓人感覺輕鬆了一些,因為以前確實需要記住很多細節”。但有時候,“你不太清楚那些事情具體是怎麼被解決的”。他說,這種變化會讓你“感覺對問題的感知不像以前那麼敏銳了”。 (騰訊科技)
Claude Code Security發布嚇壞資安產業市場陷入恐慌 資安股為何集體下挫?
日前,人工智慧新創公司Anthropic發布全新程式碼安全工具 Claude Code Security,主打能像資深資安人員一樣理解整個程式碼庫的邏輯與元件交互關係,而非僅比對已知漏洞模式,並自動生成具針對性的修補建議。消息公布後,資安相關族群出現短期震盪,部分龍頭公司股價走弱。追蹤資安產業的First Trust NASDAQ Cybersecurity ETF也出現連續數日回檔,引發市場討論:「AI是否對傳統資安產業形成威脅?」(相關新聞:Claude令市場陷入恐慌 全球百億美元市值一夕蒸發)但這個問題,真的那麼單純嗎?(First Tnust NASDAQ Cybersecurity ETF(CIBR))市場為何會出現壓力?Anthropic 在發布時指出,Claude Code Security 在測試階段已成功找出超過 500 個真實存在的程式碼漏洞,部分甚至是傳統資安工具長期未能偵測到的問題,市場可能將此視為潛在競爭訊號,進而調整資安類股的未來成長預期。從市場心理層面來看,生成式AI若能自動掃描漏洞:提供修補建議降低人工分析時間確實可能讓投資人產生聯想「這是否會削弱既有資安公司的價值?」然而,需要釐清的是目前Claude Code Security所聚焦的,是應用程式層級的程式碼分析與漏洞輔助修補。這屬於整體資安體系中的一個環節,而非完整的資安解決方案。資訊安全產業實際涵蓋範圍包括”防火牆與邊界安全”:端點安全(Endpoint Security)雲端安全架構零信任(Zero Trust)模型威脅偵測與回應(EDR / XDR)SOC安全營運中心身分與存取管理(IAM)流量分析與行為判讀勒索軟體防禦漏洞掃描只是其中一部分,因此,短期市場反應更可能來自於對未來競爭格局變化的預期調整,而非產業基本面立即發生根本性改變。在資本市場中,股價反映的是「預期」,不一定是「已發生的事實」。AI 的角色:把「想」變成「做」的輔助工具?正因如此,理解 AI 在資安中的真實角色,比跟隨市場情緒更為重要。將AI與資安視為對立關係,或許是一種過度簡化。在我的認知裡,AI 是一種輔助型工具,而非全能的決策者。它可以協助你整理知識、提升工作效率、協作文章撰寫,甚至幫你實現以前只停留在「想法」階段的事。舉個例子:假設你想打造一套自動語音報時系統,過去你可能因為技術門檻而難以起步,但現在透過 AI 的輔助,這個想法可以相對快速地被實現。目前市面上除了 Claude,也有 Gemini、ChatGPT 等多種 AI 工具,各有其擅長的應用場景。AI 真正的價值,在於降低實現門檻,讓更多人能將創意轉化為行動。換句話說:AI正在成為資安產業的加速器,而不是替代者。未來的競爭,可能不再是「AI公司 vs 資安公司」,而是「誰能更有效整合AI進入資安架構」,產業升級通常伴隨技術重組,而不是單向消滅。(除了Claude仍有許多AI可以做到圖片上列的事項例如Gemini、OpenAI...等)AI 越方便,你越需要守護自己的資訊安全AI 工具日益普及,使用便利性大幅提升,但隨之而來的資安風險也不容忽視。當你將 AI 工具安裝於電腦、整合進工作通訊軟體,或授予它存取你的檔案、照片等權限時,使用過程中的互動紀錄,通常會傳送至該服務商的伺服器進行處理。即便業者聲稱不長期保存資料或採用加密傳輸,資料在傳輸與處理過程中的風險仍然存在。建議大家在享受 AI 帶來的便利之餘,也建立清楚的使用界線:•避免將機密的工作文件、客戶資料輸入公開的 AI 服務•謹慎授權 AI 存取個人照片、通訊紀錄等敏感內容•定期檢視所使用工具的隱私權政策與資料處理方式AI 是幫助我們把不可能化為可能的存在,但在擁抱它的同時,守護屬於自己的數位邊界,同樣重要。因此,比起全面拒絕AI,更成熟的態度是:理解風險、設定界線、建立制度。**更多(分析、資產配置分享、財經閱讀筆記..等)歡迎至「ANSHI安實的沙龍」訂閱哦!※文章分享來自個人分析,不會給予該買或賣的評斷,純分享,也是一種自我紀錄。※投資理論沒有對錯,想法、策略只有適不適合自己,互相討論求進步(數據有誤,歡迎留言修正)。
Claude Code 工程師:像 Agent 一樣思考
概要Anthropic 工程師 Thariq 分享了建構 Claude Code 過程中關於 Agent 工具設計的經驗教訓。文章通過幾個真實案例,講述了 AskUserQuestion 工具的三次迭代、Todo List 到 Task 系統的演進、搜尋工具的變遷,以及漸進式發現機制的設計思路。核心觀點是:Agent 的工具設計沒有標準答案,你得不斷觀察模型的行為,反覆實驗迭代,學會「像 Agent 一樣看世界」。全文原文作者:Thariq(@trq212),發佈於 2026 年 2 月 28 日原文連結:https://x.com/trq212/article/2027463795355095314建構 Agent 最難的部分之一,就是設計它的「動作空間」(action space)。Claude 通過 Tool Calling 來執行操作,而 Claude API 提供了多種建構工具的方式,包括 bash、skills,以及最近新增的 code execution(關於程式設計式工具呼叫的更多內容,可以參考 @RLanceMartin 的文章)。面對這麼多選項,你該怎麼設計 Agent 的工具?只需要一個 bash 或 code execution 就夠了嗎?還是說需要 50 個工具,每個場景配一個?做道數學題我喜歡用一個類比來思考這個問題。想像你被給了一道很難的數學題,你希望手邊有什麼工具?答案取決於你自身的能力。紙筆是最基本的,但手算效率很低。計算器好一些,不過你得會用那些高級功能。最快最強的選擇是電腦,但前提是你得會寫程式碼。這個類比可以直接套用到 Agent 工具設計上:你要給它與其能力匹配的工具。 但你怎麼知道它的能力邊界在那?答案是:仔細觀察,閱讀它的輸出,反覆實驗。學會像 Agent 一樣看世界。以下是我們在建構 Claude Code 過程中總結的幾條經驗。提問的藝術建構 AskUserQuestion 工具時,我們的目標是提升 Claude 向使用者提問的能力(也叫 elicitation)。Claude 當然可以用純文字提問,但我們發現使用者回答這類問題時總覺得很費勁。怎麼才能降低這種摩擦,提高使用者和 Claude 之間的溝通效率?第一次嘗試:改造 ExitPlanTool我們先試著在 ExitPlanTool 上加一個參數,讓它在輸出計畫的同時附帶一組問題。這是最容易實現的方案,但 Claude 被搞糊塗了。我們同時要求它輸出計畫和提問,如果使用者的回答和計畫內容矛盾怎麼辦?Claude 是不是還得再呼叫一次 ExitPlanTool?這條路走不通。(關於我們為什麼要做 ExitPlanTool,可以參考這篇關於 prompt caching 的文章:https://x.com/trq212/status/2024574133011673516 )第二次嘗試:改輸出格式接著我們試了修改 Claude 的輸出指令,讓它用一種特殊的 Markdown 格式來提問。比如,要求它輸出一組帶備選項的問題列表,我們再把它解析渲染成 UI。這是最通用的方案,Claude 的格式輸出能力也還行,但不夠穩定。它會多說幾句話,漏掉選項,或者乾脆換一種格式輸出。第三次嘗試:AskUserQuestion 工具最後我們做了一個獨立的工具,Claude 可以在任何時候呼叫它,但在 plan mode 中會被特別引導去使用。工具觸發後會彈出一個模態框,展示問題列表並阻塞 Agent 循環,直到使用者回答完畢。這個工具讓我們得到了結構化的輸出,確保使用者能看到多個選項,還支援在 Agent SDK 或 skills 中靈活復用。最關鍵的是:Claude 確實喜歡呼叫這個工具,輸出效果也很好。再精心設計的工具,如果模型不知道怎麼用,那也是白搭。這是 elicitation 的最終形態嗎?不好說。正如下一個例子會展示的,對一個模型有效的方案,換一個模型未必好使。工具會過時Claude Code 剛上線時,我們意識到模型需要一個 Todo List 來保持工作節奏。在開始時寫下待辦事項,完成後逐項打勾。為此我們做了 TodoWrite 工具,用來建立和更新待辦列表,並展示給使用者。但即便如此,Claude 還是經常忘記自己該幹什麼。於是我們每隔 5 輪對話就插入一條系統提醒,告訴 Claude 當前的目標。然而隨著模型升級,情況反轉了。新模型不僅不需要這些提醒,反而覺得 Todo List 成了束縛。被反覆提醒 Todo 內容,讓 Claude 覺得自己必須嚴格執行列表,而不能靈活調整。同時,Opus 4.5 在使用子 Agent 方面能力大幅提升,但多個子 Agent 怎麼協作共享一個 Todo List 呢?看到這些變化,我們用 Task Tool 替換了 TodoWrite(關於 Task Tool 的詳細介紹見:https://x.com/trq212/status/2014480496013803643 )。TodoWrite 的目的是讓模型「不跑偏」,而 Task Tool 更側重於 Agent 之間的協作溝通。Task 支援依賴關係、可以跨子 Agent 同步進度,模型也可以自由修改和刪除任務。這個案例的教訓是:隨著模型能力提升,曾經必需的工具可能反過來變成約束。 你需要不斷重新審視之前的假設。這也是為什麼最好只支援少數幾個能力相近的模型。搜尋的進化對 Claude 來說,搜尋工具格外重要,因為它們決定了模型能否自主建構上下文。Claude Code 最初用的是 RAG 向量資料庫來尋找上下文。RAG 速度快、效果不錯,但需要建索引、做配置,在不同環境下容易出問題。更關鍵的是,上下文是系統預先「喂」給 Claude 的,Claude 沒有自己發現上下文的能力。但既然 Claude 能在網上搜尋資訊,為什麼不讓它搜尋你的程式碼庫?我們給了 Claude 一個 Grep 工具,讓它自己搜尋檔案、建構上下文。這是我們觀察到的一個趨勢:隨著 Claude 變得更聰明,只要給它合適的工具,它自主建構上下文的能力就越來越強。當我們引入 Agent Skills 時,正式提出了「漸進式發現」(progressive disclosure)的概念,讓 Agent 通過主動探索來逐步發現相關上下文。Claude 可以讀取 skill 檔案,而這些檔案又引用了其他檔案,模型可以遞迴地一層層往下讀。事實上,skills 的一個常見用法就是給 Claude 增加搜尋能力,比如教它怎麼呼叫某個 API 或查詢資料庫。一年下來,Claude 從幾乎無法自主建構上下文,進化到了能夠跨多層檔案巢狀搜尋,精準定位所需資訊。漸進式發現現在已經成為我們在不增加工具數量的前提下擴展功能的常用手段。藏在文件裡Claude Code 目前有大約 20 個工具,我們一直在問自己:這些都需要嗎?新增一個工具的門檻很高,因為每多一個選項,模型就多一分思考負擔。比如,我們發現 Claude 對自身瞭解不夠。你問它怎麼加入 MCP,問 slash command 是什麼,它答不上來。我們可以把這些資訊全塞進 system prompt,但使用者其實很少問這類問題,強行加進去只會帶來 context rot(上下文腐化),干擾 Claude 的本職工作:寫程式碼。於是我們嘗試了漸進式發現的方式:給 Claude 一個文件連結,讓它需要時自己載入搜尋。這招能用,但 Claude 會把大量搜尋結果全塞進上下文來找答案,其實使用者只需要一個簡潔的回覆。所以我們做了 Claude Code Guide 子 Agent。當使用者問 Claude 關於自身的問題時,Claude 會呼叫這個子 Agent。子 Agent 有詳細的文件搜尋指令,知道該搜什麼、返回什麼。雖然還不完美(Claude 被問到自身配置問題時偶爾還是會犯迷糊),但比之前好多了。我們在沒有增加任何工具的情況下,擴展了 Claude 的能力範圍。沒有標準答案如果你期待一套關於工具設計的嚴格規則,很遺憾,這篇文章給不了你。為模型設計工具,藝術的成分和科學的成分一樣多。它取決於你用的模型、Agent 的目標,以及運行環境。多實驗,仔細看輸出,大膽嘗試新方案。學會像 Agent 一樣看世界,像 Agent 一樣思考。 (AGI Hunt)
Claude Code 龍蝦化!上線遠端控制:手機隨時接管本地終端,開發環境無縫同步
Claude Code 剛剛推出了一項全新功能:遠端控制。OpenClaw 使用者早就用上了這項功能,說實話,“發起任務,然後用手機查看”這種工作流程一旦嘗試過就真的會上癮。現在,你可以在電腦終端跑起一個程式碼任務,然後拿起手機去散步或開會,隨時隨地接管任務進度。在此期間,Claude 會在你的本地機器上持續運行,而你可以直接通過 Claude App 或 claude.ai/code 網頁端控制整個會話。該功能目前面向 Max 使用者提供研究預覽版,並即將向 Pro 使用者開放。只需在終端輸入 claude rc 即可快速上手。核心亮點:裝置在變,本地環境不變遠端控制功能打通了網頁端、iOS 和 Android 移動端與本地機器的連接。當你在本地啟動遠端會話時,所有處理程序都在本地運行,沒有任何資料會被遷移到雲端。這意味著你可以實現以下操作:呼叫完整的本地環境:你的檔案系統、MCP 伺服器、工具和項目配置均保持可用狀態。多端同步辦公:對話記錄在所有連接裝置上即時同步,你可以無縫穿插使用終端、瀏覽器和手機傳送消息。無懼中斷:如果你的筆記型電腦進入休眠或網路斷開,只要機器重新上線,會話就會自動重連。這與此前推出的網頁版 Claude Code 有著本質區別。網頁版運行在 Anthropic 託管的雲基礎設施上,而遠端控制會話直接在你的本地機器上執行,與本地檔案系統互動,網頁和手機端只是監控和操作本地會話的窗口。想要上手?先核對這些門檻在使用遠端控制之前,需要確保你的環境滿足以下三個條件:訂閱要求:必須是 Pro 或 Max 計畫使用者。目前不支援團隊版、企業版,也不支援通過 API 金鑰使用。帳號認證:運行 claude 並使用 /login 命令完成網頁端登錄。工作區信任:至少需要在項目目錄中運行過一次 claude,並接受工作區信任彈窗。兩種方式啟動遠端會話無論是開啟新任務還是繼續當前工作,你都可以輕鬆喚起遠端控制。方式一:啟動全新會話進入你的項目目錄,在終端運行以下程式碼:claude remote-control該處理程序會在終端中保持運行狀態,等待遠端連接,並生成一個會話 URL 供其他裝置使用。按下空格鍵還能直接呼出二維碼,方便手機掃碼接入。運行期間,終端會即時顯示連接狀態和工具呼叫情況。此命令支援附加標誌參數:使用 --verbose 可以查看詳細的連接和會話日誌;使用 --sandbox 或 --no-sandbox 可以開啟或關閉沙盒模式,用於會話期間的檔案系統和網路隔離,沙盒功能默認處於關閉狀態。方式二:從現有會話無縫切換如果你已經處於一個 Claude Code 會話中,並希望在遠端裝置上繼續,只需輸入以下命令:/remote-control或者使用縮寫 /rc。這會立即啟動遠端控制,繼承你當前的對話歷史記錄,同樣會顯示會話 URL 和二維碼。需要注意的是,附加標誌參數在此命令下不可用。操作提示:在運行遠端命令前,建議先使用 /rename 給會話起個名字,這樣在其他裝置的會話列表中會更容易找到它。多端連接與全域配置遠端會話啟動後,你有三種方式接入:在任意瀏覽器中打開終端顯示的 URL,直接跳轉至網頁端。掃描 URL 旁的二維碼,直接在 Claude App 中打開。打開網頁端或 Claude App,在會話列表中通過名稱尋找。線上的遠端會話會帶有一個電腦圖示和一個綠色狀態圓點。如果你還沒有安裝移動端,可以直接在 Claude Code 內使用 /mobile 命令,獲取 iOS 或 Android 應用的下載二維碼。如果想讓每一次啟動都默認支援遠端控制,可以在 Claude Code 中運行 /config 命令,並將開啟所有會話的遠端控制選項設定為 true。隨時可以將其改回 false 來關閉。安全機制與使用限制在安全性方面,本地 Claude Code 會話僅發起出站 HTTPS 請求,絕不會在你的機器上開放入站連接埠。流量通過 Anthropic API 基於 TLS 加密傳輸,並採用多種生命周期極短、按獨立用途分配的憑證。不過,日常使用中還需注意以下限制條件:每個 Claude Code 實例每次只支援建立一個遠端連接。如果運行多個實例,它們各自擁有獨立的環境和會話。由於遠端控製作為本地處理程序運行,你的終端必須保持打開狀態。一旦關閉終端或停止 claude 處理程序,會話就會終止。如果機器處於喚醒狀態,但斷網時間超過約10分鐘,會話將超時並自動退出處理程序。此時需要重新運行命令啟動新會話。 (AI寒武紀)
一夜蒸發 310 億美元!Claude 新工具干翻 IBM 搖錢樹,AI 正在「清零」人類工位
如果你想摧毀一家公司,不需要打敗它,只需要讓人相信它可以被打敗。截至周一美股收盤,IBM 股價暴跌 13.1%,報每股 223 美元,創下 2000 年網際網路泡沫破裂以來最大單日跌幅。當天市值從 2408 億美元跌至約 2087 億美元,蒸發了約 310 億美元。是財報暴雷了嗎?不是。是重要大客戶跑路了嗎?也沒有。這一切的導火索,僅僅是 AI 公司 Anthropic 當天發佈的一篇部落格,宣佈旗下程式設計工具 Claude Code 可以幫助改造 COBOL 老舊系統,直接戳中了 IBM 最核心、最賺錢的遺留系統諮詢業務。沒有人證明 IBM 的生意垮了,但在恐慌的市場面前,已經不需要證據了。部落格地址:https://claude.com/blog/how-ai-helps-break-cost-barrier-cobol-modernizationCOBOL 是 IBM 的護城河,現在被 AI 盯上了要理解 IBM 為什麼跌得這麼慘,得先搞清楚 COBOL 是什麼,以及 IBM 靠它賺的是什麼錢。COBOL 是一種誕生於 20 世紀 50 年代的程式語言,今天仍在驅動美國約 95% 的 ATM 交易,以及大量銀行、政府、航空系統的日常運轉。IBM 長期銷售針對 COBOL 最佳化的大型主機,並圍繞它提供改造和諮詢服務。這門生意之所以賺錢,根源在於改造難度極高。讀懂幾十年沒有文件的老程式碼,往往要顧問團隊花上數年時間。這種高昂的理解成本,就是 IBM 最核心的競爭壁壘。Anthropic 的部落格說,Claude Code 可以自動梳理數千行程式碼之間的依賴關係,補全那些早已沒人記得的工作流文件,還能識別出人工分析師要花幾個月才能發現的系統風險。它進一步宣稱,原本以年計的現代化項目,用 AI 可以壓縮到幾個季度。當市場聽到這個消息後,立刻作出了反應:長期駐場、大團隊、以年計費——這套模式賺錢,是因為客戶沒有別的選擇。一旦 AI 提供了另一種可能,IBM 和客戶之間的議價天平,就不再是原來那個樣子了。這也讓 IBM 的處境因此顯得格外敏感。2025 年全年,IBM 諮詢業務收入約 210.55 億美元,基礎設施收入約 157.18 億美元,生成式 AI 累計簽約規模也超過了 125 億美元。當理解遺留程式碼這件事的成本被大模型顯著壓低,這些收入的含金量在市場眼中就打了折扣。有意思的是,IBM 和 Anthropic 其實並不是單純的對手。2025 年 10 月,兩家公司曾宣佈戰略合作,把 Claude 整合進 IBM 的開發工具體系,內部有超過 6000 名早期使用者報告平均生產力提升約 45%。同一種技術,既可能成為 IBM 自我改造的工具,也被看作顛覆它的武器。但在拋售情緒主導的當天,市場選擇了後者。IBM 暴跌其實不是這輪動盪的起點。早在 2 月 20 日,網路安全類股就已經經歷了一次集體閃崩,那天后來被一些分析師稱為軟體行業的「黑色星期五」。導火索是 Anthropic 宣佈推出 Claude Code Security。部落格地址:https://www.anthropic.com/news/claude-code-security這款工具能自動掃描程式碼庫中的安全漏洞,生成補丁供人工審查,並將原本由專業安全工具負責的漏洞掃描、軟體成分分析等功能,直接內建進了開發者的日常工作流。市場的反應同樣非常強烈。JFrog 當天單日暴跌 24.61%,因為它的核心業務高度依賴軟體供應鏈的管控,而這恰好是 AI Agent 最容易切入的領域。CrowdStrike、Cloudflare、Okta、Zscaler 等公司雖然主營業務並不是程式碼掃描,但也因為情緒「傳染」出現了明顯下跌,整個類股單日蒸發上百億美元,追蹤網路安全 ETF 的 BUG 基金跌至兩年多以來的最低點。當然,不少理智的分析師站出來反駁,說這種拋售毫無邏輯。比如摩根大通認為,投資者的擔憂被過度誇大。Wedbush Securities 的分析師措辭嚴厲地表示,這是自己職業生涯中見過的「最不合邏輯的交易」。他們的理由有一定說服力。AI 在幫助防守者掃漏洞的同時,也在幫助攻擊者找漏洞。到 2026 年,駭客已經開始用大模型發起更精準的釣魚攻擊,開發自動化的攻擊 Agent,甚至針對企業內部的 AI 模型實施「提示詞注入」和「記憶體投毒」。更棘手的是,企業內部大量未經授權部署的 AI Agent,一旦擁有操作內部系統和訪問敏感資料的權限,本身就成了安全隱患。這意味著安全的需求非但沒有消失,反而在擴張。CrowdStrike 提供的端點保護、Zscaler 提供的零信任網路訪問、各類身份與訪問管理工具,恰恰是應對這些新型 AI 威脅所必須依賴的基礎設施。SaaS 最不願承認,但正在發生的事APPSO 之前也報導過,AI 對整個 SaaS 行業造成了很大的衝擊。而 IBM 和安全股的動盪,是整個企業軟體行業更大危機的一個切面。過去二十年,SaaS 行業的繁榮建立在一個簡單邏輯上:企業員工越多,買的軟體席位就越多,供應商的訂閱收入就越穩。AI Agent 的出現打破了這個等式。以 Claude Cowork 為例,它能自主跨系統導航,獨立完成資料錄入、線索評分、多步驟業務審批等工作,企業不再需要維持大規模的基層操作團隊。一個原本需要五個人各自登錄帳號的財務部門,現在可能一個主管配合 AI 工具就夠了,那四個席位的訂閱費自然隨之消失。這種現像是 SaaS 廠商目前面臨的最直接威脅。在這場轉型中,處境最危險的是那些提供通用功能、主要服務中小企業的 SaaS 廠商,比如 HubSpot、Atlassian、Asana。這類產品的工作流相對標準化,很容易被 AI 直接模仿替代。越是那些功能通用、流程標準化的軟體(比如排日程、管任務的),越容易被 AI 直接平替。這種衝擊不只停留在大公司層面,對普通創業者也是一種降維打擊。一位名叫 Ira Bodnar 的創業者在 X 平台發了一篇名為《Claude 殺死所有創業公司》的帖子,迅速獲得了超過 300 萬次閱讀。文章 🔗 https://x.com/irabukht/status/2025846968245948795她兩個月前剛做出一款幫企業自動管理Google和 Meta 廣告帳戶的 AI 產品,付費客戶幾百個,成交率高達 70%,增長勢頭很好。一天早上醒來,她發現成交率跌到了 20%。原因很簡單:Anthropic 同期推出了 Meta 廣告連接器。功能還不完整,只能做分析、無法直接操作帳戶,但客戶已經開始觀望。Bodnar 在帖子裡寫道:「再過幾個月它就能做到了,所以繼續在這裡開發感覺意義不大。」IBM 失去的是估值,Bodnar 失去的是整個產品類別存在的理由。相比之下,更難被計算進股價、也更難被寫進報告的,是那些正在消失的普通崗位。畢竟,股價跌了還能漲回來,但就業市場的變化,慢刀子割肉,卻真實得多。當企業不再需要那麼多人去堆砌工作量時,最先遭殃的,是那些還沒上桌的年輕人。史丹佛大學數字經濟實驗室的研究指出,在受 AI 影響最明顯的職業裡,22 至 25 歲年輕畢業生的就業率相對下降了 13%,但與此同時,那些有豐富經驗的高級架構師,飯碗依然很穩。這個分化說明 AI 沒有像科幻電影裡那樣消滅所有人類崗位,只是悄悄從底部開始,把新人的崗位削沒了——以前,剛畢業的程式設計師總是靠寫寫簡單的基礎程式碼、修修不痛不癢的 Bug,一步步攢經驗往上爬。現在,這些「髒活累活」全是 AI Agent 的統治區。包括很多大廠現在很默契:我不大規模裁員,但如果有人辭職了,我絕對不再招新人,直接拿 AI 頂上空缺。對此,學生的選擇,已經說明了他們對市場的判斷。麻省理工學院的資料顯示,其入門程式設計課程在 2022 學年達到峰值後持續下滑,傳統電腦科學專業註冊人數從 823 人跌至 672 人,降幅超過 18%。與此同時,MIT 2022 年新設的「人工智慧與決策」專業,註冊人數從 37 人暴增到 372 人,漲了約十倍。杜克大學的 CS 入門課註冊人數同期下降約 20%,普林斯頓 CS 專業大三大四學生數量也出現了相似幅度的下滑。同樣是在 IBM 暴跌的同期,一篇由 Citrini Research 發佈的部落格《2028 年全球智能危機》在 X 平台上火了,收穫了 2000 萬+的閱讀量。文章 🔗 https://www.citriniresearch.com/p/2028gic作者假裝站在 2028 年往回看,描繪的圖景並不樂觀。企業用 AI 裁人,省下來的錢繼續買 AI,更強的 AI 讓下一輪裁員成為可能,被裁的人消費變少,企業收入下滑,又得靠 AI 進一步壓縮成本。一圈又一圈,沒有盡頭。作者自己也說,這只是一個思想實驗,不是預言。但讀完這篇文章再看今天的新聞,很難說它描述的東西完全是想像。SaaS 公司的訂閱收入在壓縮,IT 外包行業開始被質疑存在的必要性,應屆生找工作越來越難——傳導鏈條的前幾環,已經隱約可見。國際貨幣基金組織估計,全球約四成就業都暴露在 AI 的影響範圍之內,部分崗位會被增強,部分面臨萎縮,最終走向取決於各行業的互補程度與政策應對。世界經濟論壇預測,到 2030 年新技術淨創造的崗位約 7800 萬個,但這個再分配的過程,必然伴隨大量摩擦和痛苦。我們總喜歡用顛覆、炸鍋、王炸等聳人聽聞的詞彙來描述 AI 所帶來的衝擊,在我看來,這些詞都用錯了方向——AI 帶來的變化,更像是漲潮。漲潮不挑對象,不講立場,不管你是 IBM 這樣的百年巨頭還是 Bodnar 這樣的獨立創業者,水平線統一往上走。有人站在高地,有人站在灘塗,退潮之後才知道誰在裸泳——問題是,這次潮水好像沒有退的跡象。MIT 的學生已經在悄悄更換就業方向,大廠們同樣在默默等人自然離職然後不再補招,Citrini 那篇文章的閱讀量之所以能突破 2000 萬,也是因為太多人在裡面看到了自己隱約感覺到、但還沒說出口的那種不安。不安本身不是壞事。它至少說明,潮水還沒把人完全淹沒,還有時間想清楚自己站在那裡,又到底該如何在機器面前,找到自己那個沒法被替代的位置。 (APPSO)
開年重磅萬字長文範式復盤:我們身在AI奇點之中
引言:2026年2月20日,又一個行業的崩塌時刻AI生成2026年2月20日,Anthropic發佈Claude Code Security,美股網路安全類股集體暴跌。CrowdStrike跌7.95%、Cloudflare跌8.05%、Okta跌9.18%,單日市值蒸發超100億美元。Global X網路安全ETF創2023年11月以來新低。這是繼2月3-4日"SaaSpocalypse"(SaaS崩塌)之後,48小時內第二次行業級崩塌。兩次崩塌的共同特徵是:AI不再是“輔助工具”,而是直接替代了整個職業類別的核心價值。Claude Code Security在內部測試中發現500+潛伏多年的高危漏洞,包括Ghostscript、OpenSC等開放原始碼專案,部分漏洞存在超十年未被人類安全專家發現。這是範式崩塌的訊號。當一個AI工具能夠超越整個行業數十年的專家積累,因為中間有段時間我沒有緊密fellow,參見前文《用AI,不AI:一個AI異化者的重生手記》,所以我特別想搞清楚的是:範式是如何演進到這一步的?第一階段:模型能力的指數級躍遷(2018-2024)A. 核心特徵:Scaling Law(縮放定律)的勝利從GPT-3到GPT-4,從Claude到Gemini,這一階段的主旋律是模型能力的指數級增長。LLM在軟體任務上的時間跨度每7個月翻倍,Claude Opus 4.6在METR軟體任務上達到14.7小時,相比前代提升了近3倍。這個階段的關鍵信念是:更大的模型 = 更強的能力更多的資料 = 更好的泛化更長的上下文 = 更複雜的推理直到網際網路資料被用完,蒸餾資料會引發崩潰。AI訓練的瓶頸從模型參數夠不夠大,到是新鮮、可靠的資料從那裡來。這預示著第一階段的天花板。B. 範式的內在矛盾這一階段暴露出三個核心矛盾:1.資料枯竭:網際網路公開資料已被“反覆嚼舊料”,模型開始“嚼自己的尾巴”;2.能力泛化 vs. 落地應用:模型越抽象越泛化,但缺乏與真實任務的有效對接;3.Speech-act的空轉:大量對話停留在“數字空間空轉”,未能進入“speech-cognition的高價值空間”。第二階段:從In-Context Learning到Scaffolding(2024-2025)A.Anthropic的雙重路徑Anthropic的戰略核心:“in-context learning和Scaffolding演化的雙重作用下的模型進展。”In-Context Learning(上下文學習)的深化:不再是簡單的few-shot prompting;演變為Context Engineering——Anthropic在2025年9月正式提出這一概念;核心轉變:從“寫好提示詞”到“策展最優token集合”;關鍵技術:Compaction(壓縮)、Structured Note-taking(結構化記憶)、Sub-agent Architectures(子代理架構)。Scaffolding(腳手架)的戰略意義:這裡的“腳手架”指的是:人類經驗進入LLM的管道和結構。Anthropic的工程部落格揭示了一個關鍵洞察:> "Context engineering represents a fundamental shift in how we build with LLMs. As models become more capable, the challenge isn't just crafting the perfect prompt—it's thoughtfully curating what information enters the model's limited attention budget at each step."“上下文工程代表著我們利用大型語言模型進行開發的根本性轉變。隨著模型能力的增強,挑戰已不再僅僅是精心設計完美的提示,而是要審慎地在每一步中篩選出那些資訊能進入模型有限的注意力預算。”那麼,LLM平台戰爭的本質已經從模型轉移到腳手架。誰定義了人類具身經驗進入LLM的管道形態,誰就定義了speech symbiosis的拓撲結構。這意味著:腳手架(Scaffolding)成為模型能力的放大器;戰場從“模型訓練”轉移到“執行階段編排”;人類經驗的輸入方式,決定了AI的輸出質量。B. 關鍵技術突破1.Context Window的辯證法:更長的上下文 ≠ 更好的性能;Context Rot現象:隨著token數量增加,模型檢索精準性下降;解決方案:Just-in-time retrieval + Agentic Search。2.從Pre-retrieval到Runtime Exploration:傳統:預先檢索所有相關資料;新範式:維護輕量級識別碼,動態載入資料;Claude Code的實踐:用glob、grep等工具導航環境,繞過陳舊索引。3.Multi-agent Architecture的崛起:主代理維護高層計畫;子代理處理深度技術工作;每個子代理可能消耗數萬token,但只返回1000-2000 token的精煉摘要。C. 遞迴自我改進(RSI)時代的到來2025年底,一個只有行業少數人能察覺的拐點出現了:模型開始幫助創造模型。(參見前文:《AI自主進化前的窗口期:12個月!》)研發速度首次實現遞迴式增長,單個研究者的產出被成倍放大。Alexandr Wang將這個階段命名為遞迴自我改進(RSI,Recursive Self-Improvement)時代。過去五年的規律:AI進步靠堆資源。投入更多資料和算力,模型就變得更強。現在的質變:模型不再被動等待投喂,它開始能幫忙做研究,能參與訓練下一代模型。它能整理資料、生成實驗程式碼、做架構搜尋,而且速度更快。從外部看,所有頭部LLM廠家的發佈頻率突然變高了。但這只是表象。在內部,研發流程正在發生質變:研究被切分成更小的步驟;模型能夠即時給出方案並進行對比;許多過去依賴人工試錯的路徑,現在直接在模型內部就能跑通;下一代模型的迭代速度實現了量級躍升。競爭邏輯的改變:在RSI時代,競爭的焦點已經從單純的“資源規模”轉向了“迭代速度”。現在的優勢,取決於誰能更快地生成實驗方案、更快地清洗資料、更快地測試不同路徑,並以最快速度將這些成果反哺給下一代模型。所以你會看到,掌握了這套打法的頭部實驗室,產品發佈節奏明顯提速了。AI已經進入了能夠自我推動的階段。短期內,你或許感知不到劇烈變化,但在未來三到五年,這種自我加速能力會在產品迭代、組織更新和行業地位上拉開巨大差距。第三階段:腳手架重構與行業崩塌(2026年2月)A. 腳手架戰爭的本質LLM平台戰爭的本質已經從模型轉移到腳手架。誰定義了人類具身經驗進入LLM的管道形態,誰就定義了speech symbiosis的拓撲結構。這意味著:模型能力趨於同質化:(OpenAI、Anthropic、Google的頂級模型差距縮小);差異化在於編排能力:如何讓人類經驗有效輸入、如何讓模型與真實任務對接;價值捕獲點轉移:從“訓練最強模型”到“建構最佳管道”。B. 腳手架重構的領域,就是商業模式崩塌的領域第一次崩塌:SaaS的48小時(2月3-4日)。市值蒸發:納斯達克雲指數蒸發近3000億美元;這不是宏觀回呼,而是底層商業邏輯的崩塌。三個關鍵指標的失速:1. NRR(淨收入留存率)中位數跌至101%——接近危險線;2. GRR(總收入留存率)跌破90%——客戶流失加速;3. CAC回本周期拉長至24個月以上——單位經濟模型失效。Forbes的深度報導指出:這不是“增長變慢”,而是“單位經濟模型正在失效”。資本的三個逃逸方向:資金流向呈現出令人窒息的極化:1.Service-as-Software(結果導向革命):從“出售工具訪問權”到“出售可驗證的商業結果”;無法把計費模型與交付價值硬繫結的軟體→淪為“可替換元件”。2.物理基礎設施:固態變壓器、推理ASIC、矽光收發器;掌控變壓器架構與光通訊模組→建立“物理主權”;“資本只願意為‘物理控制權’和‘原生數字主權’下注”。3.機器身份與硬核推理:安全層面:從“防人越權”到“約束自治機器代理”;硬體層面:通用晶片在低延遲推理的能效比被挑戰。第二次崩塌:網路安全的黑色星期四(2月20日)觸發事件:Anthropic發佈Claude Code Security技術突破的顛覆性:採用AI模型Claude Opus 4.6;可像人類安全專家般理解程式碼邏輯;發現傳統工具易遺漏的複雜漏洞(業務邏輯缺陷、權限繞過問題);內建多階段驗證機制,自動生成修復建議但保留人工稽核環節。實戰表現:內部測試發現500+潛伏多年的高危漏洞;包括Ghostscript、OpenSC等開放原始碼專案;部分漏洞存在超十年未被人類專家發現。市場反應:CrowdStrike跌7.95%、Cloudflare跌8.05%、Okta跌9.18%;類股單日市值蒸發超100億美元;Global X網路安全ETF創2023年11月以來新低。行業影響:該工具定位程式碼審計環節,直接衝擊應用安全測試市場;儘管仍處限量研究預覽階段,但加劇市場對AI顛覆傳統安全商業模式的焦慮。兩次崩塌的共同邏輯這兩次崩塌揭示了一個殘酷的事實:當AI的腳手架能夠有效對接某個垂直領域時,該領域的傳統商業模式就會在48小時內崩塌。當AI能夠:1.超越人類專家的多年積累(網路安全);2.以更低成本交付相同結果(SaaS);3.持續學習和進化(而人類專家的知識更新速度有限)。傳統商業模式的護城河就會瞬間蒸發。腳手架重構的本質:傳統軟體時代:人類經驗 → 程式設計師編碼 → 軟體產品 → 使用者使用;瓶頸:程式設計師的編碼能力和時間。腳手架時代:人類經驗 → 腳手架管道 → LLM理解 → 輸出結果;瓶頸:腳手架的設計質量。誰定義了“人類經驗→LLM輸入”的管道形態:就定義了AI能理解什麼、不能理解什麼;就定義了AI能做什麼、不能做什麼;就定義了價值如何流動。這就是“speech symbiosis的拓撲結構”——人機共生的互動拓撲。第四階段:Agentic AI的大規模落地(2025年底-2026年)A. 從“概念”到“可用”的跨越如果說前一階段講的是技術為什麼變快,這一階段則更貼近普通人和企業:AI為什麼終於能把事情辦成了。過去兩年,智能體(Agents)這個詞被提及了無數次。從2023年開始,它就被大肆宣傳,但在很長一段時間裡,它更像是一個被炒作的流行詞,始終沒有達到預期。到了2025年下半年,情況變了。智能體第一次真正開始運轉,能夠承擔真實任務,而不再僅僅是Demo。從會回答到會執行:智能體開始處理完整的任務鏈:連續呼叫工具;在後台長時間運行;根據突發情況自動調整執行步驟。從這一刻起,AI能力邊界擴大了。以前的AI只能回答問題,現在的AI能推進進度。對企業而言,多了一個7x24線上的“數字員工”;對個人而言,則多了一個能主動幫你成事的“超級助理”。B. 軟體工程的統治地位資料顯示:軟體工程佔所有AI代理工具呼叫量的近50%,而醫療、法律、金融等垂直領域各佔比不足5%。(見下圖)這揭示了兩個事實:1.通用能力的優先順序:程式碼理解、檔案操作、系統呼叫是最基礎的“管道能力”;2.垂直領域的巨大空白:有上百個AI獨角獸企業等待被打造。馬斯克的第一性原理預測:馬斯克預測:到今年年底,AI將完全繞過編碼,直接建立二進制檔案。當AI能夠:理解使用者意圖;設計系統架構;生成最佳化的機器碼;直接輸出可執行檔案。中間的“編碼”環節就成了冗餘。這是第一性原理的極致體現——直接從需求到結果,跳過所有中間層。不愧是第一性原理宗主。C. 三個方向同步爆發1. 程式設計智能體正在重塑研發流程它們能讀懂、生成並修改程式碼,讓工程師的工作效率實現躍升。在Meta內部,有工程師利用AI將生產力提高了10到100倍。這些案例一個接一個出現後,組織裡的其他人突然意識到,工作方式真的在改變。2. 個人智能體(Personal Super Intelligence)能幫你規劃任務、安排日程、拆解目標,真正滲透進日常生活。如果你想改善健康:它能幫你量身定製並嚴格落地一套包含飲食、運動和作息的完整方案。如果你要籌辦一場活動:它能自動跟進進度、對接場地、傳送邀請,甚至替你查漏補缺。如果你想享受生活:它能幫你接管繁雜的日常瑣事,把你釋放出來,把時間留給釣魚、畫畫、旅行,或者任何真正有價值的事。3. 公共服務智能體在印度提供了範本:民眾直接在WhatsApp上就能獲取政府服務、查詢資訊、提交申請,效率發生了質變。智能體不再是某個前沿行業的專屬,它正成為一種通用的工作方式。D. 從不放心到放心智能體為什麼能在現在跨越“概念”走向“可用”?Alexandr Wang將其歸結為四點質變:1. 模型的推理能力大幅躍升;2. 工具呼叫變得更加穩定;3. 與現實場景的連接更加順暢;4. 經過海量應用測試後,可靠性得到了驗證。智能體從讓人“不放心”,變成了“可以放心託付”。這正是其能夠被規模化部署的核心前提。一旦信任建立並放心部署,價值就會快速釋放。它們不知疲倦、可無限複製、能同時處理多項任務。它們不僅能將人類從重複性勞動中解放出來,更能加快整個組織的運轉速度。企業的運轉效率、國家的公共服務質量,都將因此拉開差距。這些差距將在2026年變得清晰可見。按照Wang的判斷,在整個2026年,智能體會在全球諸多經濟領域和地區實現大規模部署。用他的話說:“AI帶來的經濟價值將呈指數級增長。”智能體已經成為一種新的生產方式。越早將其納入業務流程的組織,就能越早進入新的增長軌道。E. Claude vs. OpenClaw:兩種腳手架哲學有人這樣說:“Claude Code是精英專家同事,OpenClaw是知道你全部經歷、凌晨兩點還給你發語音的室友。”這代表了兩種腳手架設計哲學:Claude的“專家協作”模式:強調Context Engineering的精細化;多階段驗證機制;保留人工稽核環節;適合高風險、高價值場景(如程式碼安全審計)。OpenClaw的“親密室友”模式:持續上下文感知;低摩擦互動;更激進的自主權;適合個人生產力場景。兩種模式的核心差異在於:如何平衡“人類經驗輸入的連續性”與“AI自主決策的邊界”。F. 資料生產關係的重構:Perceptron Network案例Perceptron Network代表了範式演進的另一個維度:資料生產從封閉平台壟斷轉向分佈式共建。核心洞察:“AI訓練的瓶頸從來不是模型參數夠不夠大,而是新鮮、可靠的資料從那裡來。”Perceptron的思路:把資料生產從封閉的平台壟斷,轉向分佈式共建;讓真實人類訊號成為AI持續進化的燃料,而不是反覆嚼舊料;未來勝出的不是誰算力最猛,而是誰能拿到源源不斷的、可驗證的即時行為資料。機制設計:節點捕捉公開互動和上下文訊號(避開隱私雷區);經過驗證結構化後供給AI代理;貢獻者通過$PERC獎勵參與價值閉環。網路效應:節點越多→覆蓋越廣→訊號越豐富→資料質量越高;形成正反饋循環;資料從“平台護城河”變成“可循環授權的公共資產”。這是AI生產關係的重塑:從“少數巨頭囤積”到“網路共建共享”。第五階段:Speech-Cognition的終局(未來)A. 人人管理天才團隊的時代AI時代本質上就是“人人管理天才團隊”。每個人手裡的chatgpt、claude,就是博士團隊、甚至諾獎級專家組合。但關鍵前提是:管理天才團隊的能力本身就是稀缺資源。但有個關鍵前提:管理天才團隊的能力本身就是稀缺資源。AI確實降低了技術門檻,但“提出好問題、設計驗證流程、判斷輸出質量”這套能力反而在放大。就像人人都能開法拉利,但不是人人都能跑出F1圈速。工具平權了,但能力差距反而更大了。這導致了新的能力分層:工具平權了:人人都能訪問Claude、GPT;能力差距放大了:“提出好問題、設計驗證流程、判斷輸出質量”成為核心競爭力;腳手架能力成為新的護城河:誰能更好地建構“人類經驗→AI輸出”的管道。B. 供應端的指數級挑戰The advancement of AI technology is not linear but exponential.The task duration doubles every seven months.人工智慧技術的發展並非呈線性增長,而是呈指數增長。任務消耗時長每七個月就會翻一番。這帶來一個反直覺的擔憂:與其擔心AI泡沫,本猿更擔心的是——供應端是否跟得上指數級的需求爆發。馬斯克的供應鏈洞察:2023年,業界最擔心的是GPU短缺。經過3年的生產,GPU已經過剩了,真正的瓶頸是電力。這意味著:算力瓶頸:從GPU算力轉移到光互連的納秒級延遲和兆瓦級電力調度;資料瓶頸:新鮮、可靠、可驗證的即時行為資料(Perceptron Network試圖解決的問題);編排瓶頸:能夠駕馭複雜agent系統的工程師(腳手架能力)。供應鏈的瓶頸正在從“計算”轉向“能源”和“編排”。一旦解決瓶頸,就是意味著實現了黃仁勳的觀點:智能的0關稅、0延遲出口全球,本質上是能源出口。C. 從Speech-act到Speech-cognitionagent擺脫speech-act的數字空間空轉,進入到speech-cognition的高價值空間。這是範式演進的終極目標:Speech-act:對話本身是目的(聊天機器人時代);Speech-cognition:對話是認知工具,連接思考與行動;Aha moment:類似Hassabis說的Einstein Test——科學理論發現的突破。因為是個神經網路黑盒。這個感覺基於大量互動經驗。模糊摸一下,就是意圖解析穿透力很強,長邏輯鏈的收斂,動態對齊(真正的互動)。有一起往前走的協作感。這種“協作感”的特徵:意圖解析穿透力很強:AI能理解深層意圖,而非表面指令;長邏輯鏈的收斂:能在複雜任務中保持方向感;動態對齊:真正的互動,而非單向執行;一起往前走的協作感:人機共生,而非工具使用。D. 由抽象到具象和AI互動是一個高資訊密度智能體在向下相容我們,所以不論怎麼聊,都會有所收穫。AI是越抽象越泛化,怪不得現在年輕人越來越抽象。這揭示了當前階段的特徵:AI的能力是“抽象泛化”的;人類的需求是“具體情境”的;腳手架的作用就是在兩者之間建立橋樑。範式演進的脈絡總結A. 五個階段的遞進邏輯1.模型競賽期(2018-2024):- 核心:Scaling Law- 瓶頸:資料枯竭、落地應用缺失- 代表:GPT-3/4, Claude 1/22.腳手架覺醒期(2024-2025):- 核心:In-Context Learning + Scaffolding + RSI- 突破:Context Engineering, 模型幫助創造模型- 代表:Claude 3.5 Sonnet, Anthropic工程實踐3.腳手架重構與行業崩塌期(2026年2月-持續):- 核心:腳手架重構的領域,商業模式就崩塌- 訊號:兩次48小時崩塌(SaaS + 網路安全)- 觸發:Claude Code Security等垂直突破4.Agentic AI大規模落地期(2025年底-2026年):- 核心:從“概念”到“可用”的跨越- 戰場:程式設計、個人助理、公共服務三個方向爆發- 代表:Meta 10-100倍生產力提升、印度WhatsApp政務5.Speech-Cognition期(未來):- 核心:互動作為認知工具- 目標:AI作為認知放大器,而非工具- 特徵:動態對齊、長邏輯鏈收斂、協作感B. 兩條主線的交織第一條主線:技術提速模型能力 → Context Engineering → RSI(模型創造模型)→ 迭代速度指數級增長第二條主線:應用落地Speech-act空轉 → Agentic Orchestration → 大規模部署 → Speech-Cognition第一條主線決定天花板有多高,第二條主線決定落地有多快。而競爭的終局,取決於誰能讓更多人更早用上智能體。還有一條資料主線,目前共識還不確定。C. 關鍵轉折點1.Anthropic的Context Engineering論文(2025年9月):- 標誌著從"prompt engineering"到"context engineering"的官方確認- 腳手架從隱性知識變為顯性方法論2.RSI時代的到來(2025年底):- 模型開始幫助創造模型- 研發速度首次實現遞迴式增長3.第一次崩塌:SaaSpocalypse(2026年2月3-4日):- 傳統SaaS商業模式的結構性崩塌- 資本從"軟體"逃向"物理基礎設施"和"結果交付"4.第二次崩塌:網路安全類股黑色星期四(2026年2月20日):- Claude Code Security發佈- AI超越人類專家多年積累的標誌性事件智能體從“不放心”到“放心”(2025年底-2026年)- 可靠性驗證完成- 大規模部署開始- 新的生產方式確立D. 深層思考:範式演進的哲學從“工具”到“同事”再到“共生體”三個階段的隱喻:1.工具時代:人使用AI(GPT-3時代)2.同事時代:人與AI協作(Claude Code時代)3.共生時代:人AI一體化(Speech-cognition時代)從“attention is all you need”到“context is all you need”Transformer的核心是attention機制,但Anthropic的洞察是: “Context, therefore, must be treated as a finite resource with diminishing marginal returns.”因此,上下文資訊必須被視為一種有限的資源,其邊際效益會逐漸遞減。這意味著:-Attention的稀缺性:每個新token都消耗“注意力預算”;-Context Engineering的本質:在有限注意力預算下,策展最高訊號密度的token集合;-腳手架的價值:不是增加模型能力,而是最佳化模型注意力的分配效率。2026年2月20日之後A. 三個確定性趨勢1.模型能力繼續指數級增長:- 任務時長每7個月翻倍- RSI加速這一處理程序2.腳手架生態成為主戰場:- 誰定義管道,誰控制價值流- 腳手架重構的領域,商業模式就崩塌3.資料生產關係重構:- 從平台壟斷到分佈式共建-即時行為訊號成為新石油B. 三個開放性問題1.供應端能否跟上需求爆發?- 從GPU短缺到電力短缺- 物理瓶頸可能成為下一個限制因素2.垂直領域的AI獨角獸何時爆發?- 軟體工程已佔50%- 醫療、法律、金融的5%佔比意味著巨大空白3.人類能力分層會如何演化?- 工具平權 vs. 能力差距放大- “管理天才團隊”的能力如何培養?C.最後的隱喻:Einstein Test與三個時間維度Hassabis提出了“Einstein Test”(愛因斯坦測試)——AI發現科學理論的能力,回到1905年AI能不能發現狹義相對論。這或許是範式演進的終極目標。要到達那裡,我們需要穿越三個時間維度:現在:這是一個工程問題。我們需要建構更好的腳手架,讓人類經驗有效進入LLM,讓智能體可靠執行。未來:這是一個管理問題。當人人都能訪問天才團隊(AI agents),真正的差距在於誰能更好地管理它們——提出好問題、設計驗證流程、判斷輸出質量。更遠的未來:這是一個共生的問題。不是AI替代人類科學家,而是AI與人類科學家共生,在Speech-Cognition的高價值空間中,一起往前走,發現下一個aha moment。2026年2月20日,當Claude Code Security發現了人類專家十年未發現的漏洞,我們或許已經看到了這個未來的一角。這種“意圖解析的穿透力”,這種“長邏輯鏈的收斂”,這種“一起往前走的協作感”——正是我們正在經歷的範式演進的最深刻特徵。答案正在2026年的每一天被書寫。 (虎嗅APP)
Claude Code正式引入Git Worktree原生支援:Agent全面實現平行獨立工作
Claude Code現已原生內建Git Worktree支援。現在,多個Agent可以完全平行運行,互不干擾。每個Agent都會獲得專屬的獨立工作區。這項功能此前已在Claude Code桌面端應用中提供,今天正式擴展至命令列(CLI)環境。瞭解Worktree底層機制:https://git-scm.com/docs/git-worktree以下是本次更新的核心功能拆解:命令列支援一鍵開啟隔離環境在命令列中,啟動時附帶--worktree參數即可讓Claude Code在專屬的Git工作區中運行。你可以自行命名工作區,或者直接讓Claude自動完成命名。這項機制允許在同一個Git倉庫下同時運行多個平行的Claude Code會話,徹底解決了多工並行時的程式碼修改衝突問題。同時,附加--tmux參數可以直接在專屬的Tmux會話中啟動Claude。桌面端應用提供可視化開關如果不習慣使用終端命令列,可以直接在Claude桌面端應用中操作。進入Code選項卡,直接勾選worktree mode即可開啟工作區模式。子Agent全平台打通工作區特性子Agent現在同樣利用工作區隔離機制來處理更多的平行任務。在應對大型批次修改和程式碼遷移任務時,這項特性極具實用性。只需直接要求Claude為其Agent使用工作區即可呼叫該能力。目前該功能已完成全生態覆蓋,支援環境包括:CLI命令列、桌面端應用、IDE擴展、Web端以及Claude Code移動端App。自訂Agent支援默認隔離配置你可以讓自訂子Agent始終在自己的工作區中運行。配置方式非常直接,只需在Agent的頭部配置資訊(frontmatter)中加入isolation: worktree即可生效。全面相容非Git版本控制系統對於使用Mercurial、Perforce或SVN的使用者,本次更新同樣提供瞭解決方案。通過定義工作區鉤子(worktree hooks),非Git使用者也能完整體驗到程式碼隔離機制帶來的優勢。(AI寒武紀)